Ref.: Fairness
Google Machine Learning Crash Course在這一個月內很像很明顯的改版了兩次,多了一些類別,而且多了這個主題 Fairness。
簡體中文還沒翻譯喔,習慣切去簡體中文的各位要痛苦了。
這邊主要是為了公平性,列出一些bias,但這邊列的bias並沒有所有都列進來,可以參考wiki bias種類。識別bias很重要,攸關到你的model訓練過程跟預測結果。
資料的頻率或屬性沒有正確反映出現實世界的樣子,通常是因為把焦點放在特別不尋常或特別難忘上面。
如果我們Training data都是一些非常喜歡或非常討厭的data,對於立場中立的資料其預測正確性就會很差。
只喜歡自動化系統的結果,而忽略了人為判斷的資料。
工程師用工程師思維去設計一個model,到最後發現判斷結果precision, recall比人為判斷還差
選擇example時的方法跟真實世界的分布不一樣時會發生,又可以分成三種:
選擇的過程不是透過有代表性的方法完成,太收斂至某個群體。
像是預測新手機的銷售量,但training data不包含買競爭者商品的使用者。
在資料收集的過程中,因參與差距使的資料最後變成不具代表意義
像是預測新手機的銷售量,雖有買競爭者產品跟買自家產品的使用者,但80%買競爭者的產品沒有完成整個資料收集的過程。
資料收集時沒有使用適當的隨機取樣方法。
像是預測新手機的銷售量,雖有買競爭者產品跟買自家產品的使用者,但最後選擇的資料是前200個完成收集過程的人,前200個人很可能是自家產品的忠實粉絲。
對群體有一些先入為主的想法,因而選擇時造成資料偏差
只喜歡自己所在的群體、或跟自己有相同特性的群體
某學校畢業的只喜歡某學校畢業的人,覺得他們比較適合這個工作
對跟自己沒關的團體有些刻板印象
資工背景的覺得其他非資工畢業的不夠專業
依照自己的個人經驗或心智模型為依據,但不夠通盤的看整體可能性。
用
搖頭
當成說不去訓練model,卻忽略了有些文化可能搖頭
是說好。
Implicit Bias最常見的形式,模型建立者不知不覺用預先存在的信念或假設去處理資料。
模型建立者反覆訓練model直到結果跟自己想的一樣。
討厭貴賓狗的人,在訓練寵物狗是否溫順時,一直訓練到model預測貴賓狗是野蠻為止。
OK,這邊列出了很多種bias,記得,並不是全部,要全部請看wiki。